我们提出了一种新的双边谈判模型,允许自私的代理人在存在用户偏好不确定性的情况下学习如何在多个问题上进行谈判。该模型依赖于代表代理在协商期间使用的策略的可解释策略模板,并学习模板参数以最大化在多个协商中收到的平均实用程序,从而导致最佳的出价接受和生成。我们的模型还使用深度加强学习来评估阈值实用程序值,了解需要它们的策略,从而导出每个环境状态的最佳实用程序。为了处理用户偏好不确定性,模型依赖于随机搜索,以查找最佳与给定部分偏好配置文件同意的用户模型。在协商时间内应用多目标优化和多标准决策方法,以产生帕累托 - 最佳结果,从而增加了成功(Win-Win)谈判的数量。严谨的实验评估表明,采用我们的模型的代理商在个人以及社会福利公用事业方面优于第10次自动谈判代理竞赛(ANAC'19)的获胜代理商。
translated by 谷歌翻译